31 research outputs found

    Single-trial P300 detection with Kalman ltering and SVMs

    No full text
    International audienceBrain Computer Interfaces (BCI) are systems enabling hu- mans to communicate with machines through signals generated by the brain. Several kinds of signals can be envisioned as well as means to mea- sure them. In this paper we are particularly interested in even-related brain potentials (ERP) and especially visually-evoked potential signals (P300) measured with surface electroencephalograms (EEG). When the human is stimulated with visual inputs, the P300 signals arise about 300 ms after the visual stimulus has been received. Yet, the EEG signal is often very noisy which makes the P300 detection hard. It is customary to use an average of several trials to enhance the P300 signal and reduce the random noise but this results in a lower bit rate of the interface. In this contribution, we propose a novel approach to P300 detection using Kalman ltering and SVMs. Experiments show that this method is a promising step toward single-trial detection of P300

    Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

    No full text
    Session "Articles"National audienceL'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de systèmes de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " on-policy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent a l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne de la politique optimale est proposé. Cet algorithme combiné, à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multi-couche) permet de gérer des systèmes à grande échell

    Particle Swarm Optimisation of Spoken Dialogue System Strategies

    No full text
    International audienceDialogue management optimisation has been cast into a plan- ning under uncertainty problem for long. Some methods such as Reinforcement Learning (RL) are now part of the state of the art. Whatever the solving method, strong assumptions are made about the dialogue system properties. For instance, RL assumes that the dialogue state space is Markovian. Such con- straints may involve important engineering work. This paper introduces a more general approach, based on fewer modelling assumptions. A Black Box Optimisation (BBO) method and more precisely a Particle Swarm Optimisation (PSO) is used to solve the control problem. In addition, PSO allows taking ad- vantage of the parallel aspect of the problem of optimising a system online with many users calling at the same time. Some preliminary results are presented

    Apprentissage par renforcement pour la personnalisation d'un logiciel d'enseignement des langues

    No full text
    National audienceDans le cadre du projet INTERREG ALLEGRO, financé par les Fonds Européens de Développement Régional (FEDER), une interface d'enseignement des langues (français - allemand) est développée. Cette interface a pour objectif de personnaliser l'enseignement selon le profil des apprenants et de s'adapter aux performances de ceux-ci. Une phase de collecte de données est prévue et des méthodes d'apprentissage automatique de stratégie d'interaction entre le logiciel et l'apprenant seront utilisées à partir de ces données. Particulièrement, l'apprentissage par renforcement sera au coeur du système pour alterner de manière optimale les phases d'enseignement et d'évaluation. Cet article présente la modélisation du problème qui sera utilisée ainsi que des résultats préliminaires encourageants

    Uncertainty management for on-line optimisation of a POMDP-based large-scale spoken dialogue system

    No full text
    International audienceThe optimization of dialogue policies using reinforcement learning (RL) is now an accepted part of the state of the art in spoken dialogue systems (SDS). Yet, it is still the case that the commonly used training algorithms for SDS require a large number of dialogues and hence most systems still rely on artificial data generated by a user simulator. Optimization is therefore performed off-line before releasing the system to real users. Gaussian Processes (GP) for RL have recently been applied to dialogue systems. One advantage of GP is that they compute an explicit measure of uncertainty in the value function estimates computed during learning. In this paper, a class of novel learning strategies is described which use uncertainty to control exploration on-line. Comparisons between several exploration schemes show that significant improvements to learning speed can be obtained and that rapid and safe online optimisation is possible, even on a complex task

    Dealing with uncertainty to optimise interactive systems

    No full text
    Le sujet des travaux concerne l'amélioration du comportement des machines dites \og intelligentes\fg, c'est-à-dire capables de s'adapter à leur environnement, même lorsque celui-ci évolue. Un des domaines concerné est celui des interactions homme-machine. La machine doit alors gérer différents types d'incertitude pour agir de façon appropriée. D'abord, elle doit pouvoir prendre en compte les variations de comportements entre les utilisateurs et le fait que le comportement peut varier d'une utilisation à l'autre en fonction de l'habitude à interagir avec le système. De plus, la machine doit s'adapter à l'utilisateur même si les moyens de communication entre lui et la machine sont bruités. L'objectif est alors de gérer ces incertitudes pour exhiber un comportement cohérent. Ce dernier se définit comme la suite de décisions successives que la machine doit effectuer afin de parvenir à l'objectif fixé. Une manière habituelle pour gérer les incertitudes passe par l'introduction de modèles : modèles de l'utilisateur, de la tâche, ou encore de la décision. Un inconvénient de cette méthode réside dans le fait qu'une connaissance experte liée au domaine concerné est nécessaire à la définition des modèles. Si l'introduction d'une méthode d'apprentissage automatique, l'apprentissage par renforcement a permis d'éviter une modélisation de la décision \textit{ad hoc} au problème concerné, des connaissances expertes restent toutefois nécessaires. La thèse défendue par ces travaux est que certaines contraintes liées à l'expertise humaine peuvent être relaxées tout en limitant la perte de généricité liée à l'introduction de modèlesThe behaviour of machines is difficult to define, especially when machines have to adapt to a changing environment. For example, this is the case when human-machine interactions are concerned. Indeed, the machine has to deal with several sources of uncertainty to exhibit a consistent behaviour to the user. First, it has to deal with the different behaviours of the users and also with a change in the behaviour of a user when he gets used to the machine. Secondly, the communication between the user and the machine can be noisy, which makes the transfer of information more complicated. The objective is thus to deal with the different sources of uncertainty to show a consistent behaviour. Usually, dealing with uncertainties is performed by introducing models : models of the users, the task concerned or the decision. However, the accuracy of the solution depends on the accuracy of expert knowledge used to build the models. If machine learning, through reinforcement learning, has successfully avoided the use of model for the decision and removed \textit{ad hoc} knowledge about it, expert knowledge is still necessary. The thesis presented in this work is that some constraints related to human expertise can be slackened without a loss of generality related to the introduction of model

    Gestion de l'incertitude pour l'optimisation de systèmes interactifs

    No full text
    The behaviour of machines is difficult to define, especially when machines have to adapt to a changing environment. For example, this is the case when human-machine interactions are concerned. Indeed, the machine has to deal with several sources of uncertainty to exhibit a consistent behaviour to the user. First, it has to deal with the different behaviours of the users and also with a change in the behaviour of a user when he gets used to the machine. Secondly, the communication between the user and the machine can be noisy, which makes the transfer of information more complicated. The objective is thus to deal with the different sources of uncertainty to show a consistent behaviour. Usually, dealing with uncertainties is performed by introducing models : models of the users, the task concerned or the decision. However, the accuracy of the solution depends on the accuracy of expert knowledge used to build the models. If machine learning, through reinforcement learning, has successfully avoided the use of model for the decision and removed \textit{ad hoc} knowledge about it, expert knowledge is still necessary. The thesis presented in this work is that some constraints related to human expertise can be slackened without a loss of generality related to the introduction of modelsLe sujet des travaux concerne l'amélioration du comportement des machines dites \og intelligentes\fg, c'est-à-dire capables de s'adapter à leur environnement, même lorsque celui-ci évolue. Un des domaines concerné est celui des interactions homme-machine. La machine doit alors gérer différents types d'incertitude pour agir de façon appropriée. D'abord, elle doit pouvoir prendre en compte les variations de comportements entre les utilisateurs et le fait que le comportement peut varier d'une utilisation à l'autre en fonction de l'habitude à interagir avec le système. De plus, la machine doit s'adapter à l'utilisateur même si les moyens de communication entre lui et la machine sont bruités. L'objectif est alors de gérer ces incertitudes pour exhiber un comportement cohérent. Ce dernier se définit comme la suite de décisions successives que la machine doit effectuer afin de parvenir à l'objectif fixé. Une manière habituelle pour gérer les incertitudes passe par l'introduction de modèles : modèles de l'utilisateur, de la tâche, ou encore de la décision. Un inconvénient de cette méthode réside dans le fait qu'une connaissance experte liée au domaine concerné est nécessaire à la définition des modèles. Si l'introduction d'une méthode d'apprentissage automatique, l'apprentissage par renforcement a permis d'éviter une modélisation de la décision \textit{ad hoc} au problème concerné, des connaissances expertes restent toutefois nécessaires. La thèse défendue par ces travaux est que certaines contraintes liées à l'expertise humaine peuvent être relaxées tout en limitant la perte de généricité liée à l'introduction de modèle

    Off-policy Learning in Large-scale POMDP-based Dialogue Systems

    No full text
    International audienceReinforcement learning (RL) is now part of the state of the art in the domain of spoken dialogue systems (SDS) optimisation. Most performant RL methods, such as those based on Gaussian Processes, require to test small changes in the policy to assess them as improvements or degradations. This process is called on policy learning. Nevertheless, it can result in system behaviours that are not acceptable by users. Learning algorithms should ideally infer an optimal strategy by observing interactions generated by a non-optimal but acceptable strategy, that is learning off-policy. Such methods usually fail to scale up and are thus not suited for real-world systems. In this contribution, a sample-efficient, online and off-policy RL algorithm is proposed to learn an optimal policy. This algorithm is combined to a compact non-linear value function representation (namely a multilayers perceptron) enabling to handle large scale systems

    Gestion de l'incertitude pour l'optimisation en ligne d'un gestionnaire de dialogues parlés à grande échelle basé sur les POMDP

    No full text
    National audienceL'utilisation de l'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de gestionnaires de dialogues parlés. Cependant avec cette méthode, entraîner un gestionnaire de dialogues requiert la génération de nombreuses données. C'est pourquoi beaucoup d'attention a été portée à la simulation d'utilisateurs ces dix dernières années. L'optimisation est donc faite avant de confronter le système à des utilisateurs réels et l'apprentissage est soit stoppé ou soit très lent durant l'utilisation pratique. Pendant ce temps-là, la recherche en AR a développé des algorithmes efficaces en termes d'échantillons. Par exemple les processus gaussiens pour l'AR ont récemment été appliqués aux gestionnaires de dialogues. Pour augmenter la vitesse d'apprentissage, l'incertitude sur les estimations calculées durant l'apprentissage est utilisée pour diriger l'exploration. Une comparaison entre différents schémas d'exploration montre que des améliorations significatives peuvent être apportées et qu'une optimisation en ligne rapide et sûre est possible, même sur une tâche complexe
    corecore